1 Wstępne przetwarzenie danych

Ze zbioru danych wczytanego z pliku all_summary.csv zostały usunięte wiersze z wartościami atrybutu res_name w zbiorze {UNK, UNX, UNL, DUM, N, BLOB, ALA, ARG, ASN, ASP, CYS, GLN, GLU, GLY, HIS, ILE, LEU, LYS, MET, MSE, PHE, PRO, SEC, SER, THR, TRP, TYR, VAL, DA, DG, DT, DC, DU, A, G, T, C, U, HOH, H20, WAT}. Podczas wczytywania danych res_name równe “NA” zostały zastąpione wartościami pustymi, dlatego wartości pustu zostały zastapione odpowiednim łancuchem znakóW

df[is.na(df$res_name),"res_name"] = "NA"

1.1 Przetwarzanie brakujących danych

Analiza wzorców występowania wartości pustych wykazała, że kolumna weight_col jest zawsze pusta. Po usunięci tej kolumny 91 % wierszy jest kompletnych. Proporcja niekompletnych wierszy jest niewielka, więc zostały one usunięte.

df <- df %>% select(-weight_col)
df <- na.omit(df)

Po tych operacjach w zbiorze nie ma już wartościu pustych.

1.2 Najczęstsze klasy

Do dalszego przetwarzania pozostawione zostaną tylko wiersze, dla których res_name (klasa) jest jedną z 50 najczęściej wystepujacyh klas.

2 Statystyki

2.1 Rozmiar zbioru

2.2 Podsumowanie atrybutów

int_num_cols <- as.character((data.frame(name=as.character(colnames(df)), type = sapply(df, class)) %>% filter(type %in% c("numeric","integer")))$name)
summary_df <- summary( df %>% select(int_num_cols) )
transposed_summary_df <- transpose(as.data.frame(unclass(summary_df)))
colnames(transposed_summary_df) <- c("Min", "1st Qu", "Median", "Mean", "3rd Qu", "Max")
transposed_summary_df <- cbind(Name=colnames(summary_df), transposed_summary_df)
DT::datatable(transposed_summary_df, style="bootstrap")

2.3 Rozkład liczby atomów i elektronów

2.4 Zgodność liczby atomów

Zgodność między atrybutami local_res_atom_non_h_count oraz dict_atom_non_h_count zastała obliczona przy użyciu testu Wilcoxsona.

2.5 Korelacja

Na ptrzeby policzenia korelacji zostaną usunięte kolumny mające nienumeryczne wartości oraz kolumny charakteryzujące się wariancją bliską 0.

Na wykresie widać, że istnieje korelacja mięszy wieloma atrybutami.

3 Regresja

Na potrzeby regresji zostana usunięte kolumny, które są ze sobą parami skorelowane, tak aby zotało po jednej kolumnie z takich par.

Dla atomów RMSE: 0.9488917 oraz R^2 0.9948858

Dla elektronów RMSE: 12.4805215 oraz R^2 0.9806533

4 Rozkład atrybutów part_01

part_01 distributions

part_01 distributions